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Штучна тональна мова 
акустично! комун1каци робот!в 


Рассматривается задача коммуникации роботов на основе языка тональных акустических сигналов. Приведена 
формальная модель языка, в котором каждому символу языка соответствует последовательность акустических 
одночастотных сигналов, и рассмотрен алгоритм распознавания таких характерных звуков. 
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Розглядаеться задача комушкаци роботйв на грунт! мови тональних акустичних сигнал в. наведено формальну 
модель мови, в яюЙ кожному символу мови в1дпов1дае посллдовесть акустичних одночастотних сигнал, 1 
розглянуто алгоритм розшзнавання таких характерних звукив. 
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Введение 


Цель работы — создание системы акустической коммуникации роботов для реализации 
их «разговора» в обычной внешней воздушной среде на акустических частотах, восприни- 
маемых человеком. Вообще говоря, малочастотный язык роботов не будет непосредственно 
понятен человеку, но для человека несложно подготовить соответствующий транслятор. 
При этом предлагаемая акустическая коммуникация может стать удобным средством допол- 
нительного контроля поведения роботов, сосуществующих с человеком в едином социуме. 

В настоящей работе коммуникация роботов основана на простых по своей струк- 
туре одно- и малочастотных сигналах, что делает методы спектрального анализа прак- 
тически идеальными для последующих алгоритмов распознавания. На базе таких сиг- 
налов строится базовый язык роботов. В работе реализована программная среда для 
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визуализации и анализа работы построенного алгоритма. Проведены эксперименты на 
основе созданных компьютерной и аппаратной моделей для анализа работоспособности 
построенных алгоритмов. Первый прототип описываемой системы был создан в 2007 — 
2008 гг., он кратко опубликован в сборнике и на электронных ресурсах [1]. В последую- 
щее время выполнялись эксперименты по созданию нескольких различных реализаций и 
отработке языка. 

На рис. 1 показан мобильный робот «Аргонавт-2» семейства «Аргонавт», соз- 
данный в ИПМ им.М.В. Келдыша РАН. Робот оснащен приемной системой слуха, на 
этом роботе отрабатывались различные задачи акустической сигнальной обработки, в 
т.ч. базис (функции ввода, приема и передачи) описываемого языка. 


Рисунок 1 — Робот «Аргонавт-2» с системой слуха 


Укажем, что в 2004 году группой американских специалистов была создана и испы- 
тана аналогичная система [2], в которой символы кодируются стандартными ОТМЕ-сигна- 
лами (сигналы класса телефонных, когда телефон переключен в тональный режим). В 
2011 году по этой же теме появилась публикация [3] авторов из австралийского универ- 
ситета Квинсленда (Оцееп$апа). 

В отличие от указанных публикаций, в данной работе рассмотрена формальная мо- 
дель языка. В этом языке символы могут кодироваться не только частотами ОТМЕ, а 
любой последовательностью частот. 


1 Структура языка роботов 


Структура любого акустического языка состоит из алфавита и набора фонем, соот- 
ветствующих каждой букве (символу) этого алфавита. 

Фонема в данной работе делится на фрагменты. Фрагмент представляет собой 
произвольный одночастотный сигнал определенной длительности и амплитуды, т.е. 
элемент множества 


Его = {(атр, а, Аиг)|атр е М, |4 Е №, 4игеЕ № 


Фрагменты играют роль неделимых частиц, атомов языка. Из фрагментов со- 
ставляются все другие конструкции языка. Поскольку фрагмент является одночас- 
тотным сигналом, будем называть систему одночастотной. 

Длительность фрагмента | = (атр, Ра, 4иг) будем обозначать | "8 |=4иг. 


Частоту фрагмента /7 = (атр, /"4,4иг) будем обозначать /№[] = 4. 
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Любое конечное подмножество 


Ес (ре, р'°,..., |9") [пе М, Де" Е Ее =ТЬп, 
множества конечных упорядоченных наборов элементов из ЁЕ’э будем называть множе- 
ством фонем. 

Таким образом, любая фонема представляет собой последовательность одноча- 
стотных сигналов. В отличие от фрагмента, фонема является многочастотным сигна- 
лом. Пример аудиосигнала, соответствующего фонеме, графически изображен на рис. 2, 
на котором фонема состоит из фрагментов трех частот. 

Длительностью фонемы будем считать сумму длительностей всех входящих в неё 


фрагментов. Длительность фонемы / = (/7э',..., '”) будем обозначать | / У йе’ |. Для 


1=1 


получения А-го фрагмента /5’ фонемы Г =(',.., 2“... ие”) будем использовать 
запись /[А]= е*. 


Рисунок? — Пример аудиосигнала, соответствующего фонеме = (/7э", /7е*, }'2°) 


Наложим на множество фонем Ё’ несколько ограничений. Потребуем, чтобы ни одна 
фонема не являлась частью другой фонемы, т.е. для любой фонемы Г =(/',..., /'”) не 


должно существовать такой фонемы /” = (2... ею), что 1<А, <, <п. Данное усло- 


вие будем называть ограничением вложенности фонем. 
Помимо этого будем считать, что любая последовательность из двух фонем не 
содержит никакой фонемы. Т.е. ни одна фонема не является концом одной и началом 


другой фонемы. Иными словами, для любых двух фонем / =( 1..8") ЕЕ и 
Г, =(155,.., 97) Е Е не существует фонемы Х, е Ё, такой что 


К 1 Ю 
О -- 
для некоторых К,,К, Е №, 1<А <п,1<^, <п,. Данное условие будем называть 
ограничением объединения фонем. 


Введем также понятие множества используемых фрагментов, как набора всех 
фрагментов, входящих хотя бы в одну фонему. 


Ета, = {а в Еге [Я = (ре',.., и8^,.. а"), е Е, р" = ДЗ} 


Это множество конечно в силу конечности Е . 


Аналогично рассмотрим множество используемых частот, как набора частот, вхо- 
дящих хотя бы в один фрагмент из множества Ру 


Ета, = {а = №е[, № « Еге, } 
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Рассмотрим некоторое конечное множество В, которое будем называть алфавитом. 
Элемент этого множества будем называть буквой. Количество букв в алфавите, т.е. мощ- 
ность множества В , обозначим М№;. 


Множество фонем разобъем на №, непересекающихся непустых подмножеств Ё и 


каждой букве поставим в соответствие одно из них. Это соответствие обозначим А. Таким 
образом, любой букве соответствует как минимум одна уникальная последовательность 
одночастотных сигналов. 

Введем также специальный символ 5 , который будем называть пробелом. Поставим 
в соответствие этому символу некоторое число иг; е №, которое будем называть дли- 


тельностью пробела. Пробел в рассматриваемом акустическом языке будет соответ- 
ствовать тишине (сигналу с амплитудой ноль) длительностью не менее А4иг;. Набор из 


символа пробела и его длительности обозначим 5” = {5,4иг.}. 


* 
Набор 2 =(В,Е,К,5 ) алфавита, множества фонем, соответствия между ними и 


пробела будем называть языком роботов. 

Таким образом, робот, произнося слово из алфавита, преобразует его в последова- 
тельность фонем, что в свою очередь представляет собой последовательность одночастот- 
ных сигналов. Задача другого робота — выделить из всего звукового потока характерные 
звуки, соответствующие фонемам языка и на выходе получить слово в соответствии с 
распознанными фонемами. 


2 Исходные понятия и схема распознавания 


Целью алгоритма распознавания является поиск фонем в полученном роботом 
аудиосигнале. Как правило, робот на входе получает поток аудиоданных, которые 
сильно отличаются от исходных тональных сигналов. Пример аудиосигнала из экспе- 
римента показан на рис. рис. 3. В связи с этим поставим задачу построить алгоритм, 
позволяющий из всего потока данных выделить звуки, соответствующие фонемам языка 
робота. 


Рисунок3 — Пример аудио сигнала 


Введем вначале ряд базовых понятий. 
Аудиосигнал будем рассматривать как функцию 5(Г), заданную на некотором 
отрезке [1,1]. Будем предполагать, что 5 С, ([11,#,]). Задача распознавания за- 


ключается в определении всех интервалов [#1,(]<[1,,], на которых была проиграна 
некоторая фонема ГЕР. 


Базовый метод, который будем использовать, — метод спектрального анализа — 
позволяет на каждом интервале времени подсчитать амплитуду, соответствующую 
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частоте любого фрагмента. Используя формулы этого метода, рассмотрим следующую 
функцию 


и 


атр 5(0 =\а’ +Ь” ‚где а= 9 со$(2л - Ра: 
и, ,74 › Г ( 


21) 


у и | 5 зтОл - 09-04, 


которая на интервале [1,]<[1,1,] возвращает амплитуду аудиосигнала 5(#), соот- 
ветствующую частоте 4. 

Введем параметр т, значение которого будем рассматривать как параметр 
алгоритма. Будем выбирать т таким образом, что длительности всех фрагментов 
/’е е Еге, будут кратными т. Такое значение обязательно найдется в силу конечности 


множества Р7®,. 


5—1 


Рассмотрим разбиение отрезка [1,1,] точками РР 6 В = +1-11=0,5-1, 
РЕБ, -Ё! <т, на отрезки ДГ =[',#]1=Ъ5. Множество точек разбиения отрезка 
[1,6] обозначим Т. 


Т= ый | = 0, 5-Е, ГРИ < 

На каждом отрезке ЛЁ',{=1,5 рассмотрим функцию а,(Г), которая на этом отрезке 
будет определять громкость фонемы /. Данную функцию будем называть амплитудой фо- 
немы на отрезке ДГ. 

Определим критерии вхождения фонемы в аудиосигнал на каждом отрезке ДЁ', {= 1,5. 
Для этого введем следующее определение. 

Фонему Г ЕЁ будем называть выделенной на отрезке ДЁ,!=1,5 по параметрам 
ани Е №,0 < а <1, если одновременно выполняются следующие условия: 


1. а(Т)> аль (. 
2. а(Р)>0` тах, а(у) 2) 


Иными словами, фонему будем считать выделенной на отрезке времени ЛЁ,#=1,5, 


если на этом отрезке её амплитуда выше двух порогов: абсолютного и относительного. 
Абсолютный порог определяется первым условием (2.2) и задается некоторым зна- 
чением а„„. Относительный порог следует из второго условия (2.2) и равен произве- 


дению максимальной амплитуды среди всех фонем Ге РЁ на некоторое значение о’ Е (0,1). 


Значения а. и о являются параметрами алгоритма. 


шш 
Целью введения этих оценок (порогов) является фильтрация фонем. Абсолютный 
порог отсекает все «тихие» фонемы, тогда как относительный порог выделяет из 
«громких» фонем «наиболее громкие». 
Вышеуказанные критерии будут являться основными условиями вхождения фоне- 


мы в аудиосигнал. 

Множество выделенных фонем на отрезке Л!,{=1,5 обозначим 5,. Отметим, что мно- 
жества 5, ,/ =1,5 зависят от функции амплитуды фонемы, которая пока не определена, т.е. 
(2. 


9, = 5, (а;),Ё =1,5 3) 
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Для определения функции амплитуды фонемы введем ряд дополнительных понятий. 
Будем называть текущим временем распознавания фонемы Г ЕЁ к моменту вре- 
мени /еТ,!=0,5 максимальный отрезок до #'’, на котором фонема Ге ЕЁ непрерывно 


входила в аудиосигнал, т.е. была выделенной на каждом из отрезков разбиения этого 
интервала. Текущее время распознавания фонемы характеризует, какое время фонема 


непрерывно проигрывалась до момента #'. Нижеследующая формула определяет теку- 
щее время распознавания фонемы 
ТАС) +т, если Ге 5, и! >1, 


0, в остальных случаях 


Тр) - (2.4) 


Отметим, что текущее время распознавания фонемы к моменту времени {’ зависит 
от текущего времени распознавания фонемы на предыдущей точке разбиения Т и от 


множества выделенных фонем 5, на отрезке ДГ. 


ТЕТЕ ТА, Зи =15 5) 


Согласно формуле (1.4) к моменту времени {° текущее время распознавания 7. (/) 
рму. у вр ущ о 


(2. 


произвольной фонемы Г ЕЁ равно нулю. 

Используя понятие текущего времени распознавания фонемы, введем понятие теку- 
щего фрагмента фонемы на отрезке Л!,{= 1,5. Текущий фрагмент фонемы ГеР будет 
характеризовать, какой именно фрагмент этой фонемы входит в аудиосигнал на отрезке 
ДЕ, =1,5 в том случае, если фонема / входит в аудиосигнал. Иными словами, если фо- 
нема проигрывается, какой именно фрагмент проигрывается на отрезке ЛЕ. Текущий 
фрагмент фонемы Ге ЕЁ на отрезке Л#,{=1,5 будем обозначать №" (Г). 


Для определения текущего фрагмента фонемы рассмотрим остаток от деления 
текущего времени распознавания фонемы на её длительность. 


ТО) =шоа „(ТУ 
Определим функции 7“(/),1=1,5, КЕМ, которые для каждой фонемы ГЕК, 
Х=(/',.., и“... ие") на отрезке ДЕ’ будут равны сумме длительностей всех фрагмен- 
тов до А -го включительно. 
К 
=> Л” | 
= 
Таким образом, текущим фрагментом фонемы будем называть фрагмент под но- 


мером А, если Г^(/) > ГС(Т) и, либо К=1, либо Г^" (Г) < ГС (Г). Ниже приводится 
общая формула для расчета текущего фрагмента. 


Две) = ЛИ} где ® = пип (Л, 8) = 740) -79 (0), (2.6 
Ге", лв * „о, Ив", ) 


Отметим, что текущий фрагмент фонемы на отрезке Л!’ полностью определяется из 
текущего времени распознавания этой фонемы к моменту времени #'". 
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| - т. 7 
№8 с (Л) = №8с (Г.Т), Ё=1,5 2 ( 


Поскольку начало проигрывания фонемы может не совпадать с точками разби- 
ения Т, введем некоторую параметризованную функцию 9, (1) с [0,т),1 =1,5, которая 
на каждом отрезке Л!’ будет равна смещению начала проигрывания фонемы / от бли- 
жайшей точки разбиения Т в том случае, если фонема Г проигрывается на этом отрезке. 
Введем обозначение отрезка разбиения со смещением. 


ди (= +5, (Ду +65, ЕЕ 
Теперь на основе введенных понятий определим функцию амплитуды фонемы. 
Будем считать амплитудой фонемы Гена отрезке А! амплитуду частоты текущего 
фрагмента этой фонемы на отрезке Л! (Г), согласно формуле (2.1). 

а(Г)= атр 5 =15 (2. 
46 (1), Л8сП 8) 
Отметим, что текущая амплитуда фонемы была определена с использованием 

определения текущего фрагмента фонемы и функции смещения на отрезке ДГ. 


ара тано = ) 


Теперь определим критерий, который будет определять, была ли фонема проиг- 
рана на определенном отрезке времени. Для этого введем следующее определение. 


(2.9 


Фонему ГеГЁ будем называть распознанной на отрезке [|], ЕТ, 


'_/ =, если текущее время распознавания фонемы к моменту времени {' положи- 


1 
тельно и кратно длительности фонемы Х, т.е. одновременно выполняются следующие 
два условия. 
С 
1. ТО >0, (2.1 
[6 
2: 1о4 „ (ТРСГ))=0 0) 
Данное определение будем рассматривать в качестве критерия вхождения фонемы 
в аудиосигнал. 


Рассмотрим множества К, ‚ которые для каждого отрезка ЛЁ,!=1,5 будут содержать 
все фонемы Г ЕР, распознанные на некотором отрезке [#^,#'],#“,# ЕТ, который содер- 
жит ДЕ < [#,#]. Множество А, будем называть множествами распознанных фонем на 


отрезке АГ. 
Введем понятие распознанного пробела. 
Пробел 5” = {5, иг, } будем называть распознанным на отрезке [1*,1’],1\,!' ЕТ ‚если 


одновременно выполняются следующие условия 
11 [7-Е |[> ик 
2. ВЕ, 1 ЕЕ 


ЗО (2.11) 
4. К, #09 
5 В 


1+1 
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Это понятие будет определять те отрезки времени, на которых был проигран сиг- 
нал, соответствующий символу пробела. 

Пробел будет распознан на тех отрезках времени, на которых не были распознаны 
фонемы и длительность которых не меньше длительности пробела. При этом справа и 
слева от такого интервала должны быть отрезки, на которых будет распознана 
некоторая фонема. 

Полученные ключевые понятия распознанной фонемы и распознанного пробела за- 
висят от функции 0,(/), которая пока еще не определена. Рассмотрим теперь алгоритм 


определения начала фонемы и выведем формулу для д,(Г). 


3 Алгоритм определения начала фонемы 

Поскольку начало проигрывания фонемы может не совпадать с точками разби- 
ения ТГ, поставим задачу определить смещение начала проигрывания фонемы относи- 
тельно ближайшей точки разбиения слева. Для этого определим функцию д, (1), которая 
для каждого отрезка ЛЁ,!=1,5 будет совпадать с искомым смещением, если фонема 


была проиграна на этом отрезке. 
В силу того, что фонема начинает проигрываться с первого фрагмента, задача поиска 
начала фонемы сводится к поиску начала проигрывания частоты первого фрагмента. Для 


этого рассмотрим параметризованную функцию 6,(/'4). Эта функция на отрезках 
АЁ,1=1,5 будет равна смещению начала проигрывания частоты /4 относительно бли- 
жайшей точки разбиения слева. Будем считать, что функция 0, (14) зависит исключи- 
тельно от частоты 4, аудиосигнала 5(г) и параметров алгоритма. 

Используя д, (174) , определим функцию смещения 6,(/). Функция 6,(/) для каж- 
дой фонемы Г ЕР будет равна значению функции 0, (№4) для частоты /4 первого 
фрагмента фонемы Г на тех отрезках, на которых фонема начинает проигрываться. 
Отрезки, на которых фонема Г начинает проигрываться, будут определяться следующим 
образом. К их началу текущее время распознавания фонемы / будет равно нулю и 
амплитуда аудиосигнала, рассчитанная по формуле (2.1), на текущем отрезке разбиения 


АЕ’ или на следующем будет больше значения параметра а’. Если же фонема проиг- 


ти * 
рывалась на предыдущем отрезке разбиения, т.е. текущее время распознавания этой фо- 
немы к началу текущего отрезка разбиения больше нуля, вычислять значение 5, (174) 
нет необходимости. В этом случае значение функции д,(Г) берется из предыдущего 
отрезка. В том случае, если не выполняется ни одно из вышеуказанных условий, функ- 
ция д, (Г) будет равна нулю. 


Ниже приведена общая формула расчета функции д,(Т). 
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5, (№4), Ра = Ре, №е = ИИ, ТЕГ) =0и 


атр 5(1) > ав или атр 5(1) > а 
ЛЧ,Аи ЛЧ, 


9.4(Л), ТЕГ) > 0 (3.1) 
0, 75 (Л) = 0, атр 5(1) < а, атр (1) < а 


ЛЧ, АИ Ла, 


6,(Л) № 


Отметим, что функция д,( Г) зависит от текущего времени распознавания фонемы к 


моменту времени {"". 
(Л) =, (1,1), 1=15 5) (3. 


Однако для полного определения функции д,(/) необходимо ввести формулу рас- 


чета функции 5, (/74). Ниже приводится алгоритм расчета функции 6, (4). 


Данный алгоритм будет заключаться в поиске первого отрезка длительностью, равной 
длительности отрезка разбиения т ‚ на котором полностью была проиграна искомая частота. 

На рис. 4 показан график изменения амплитуды, соответствующей частоте первого 
фрагмента фонемы из эксперимента. На графике амплитуда вычисляется через каждые 5 
мс согласно формуле (2.1) по интервалу длительности 50 мс. 

На графике начало проигрывания фонемы указано вертикальной стрелкой. 
Сплошной жирной чертой отмечена ближайшая точка разбиения. Область графика 
справа от стрелки (между двумя пунктирными линиями) соответствует периоду, в течение 
которого фонема была проиграна. Сильное увеличение амплитуды до начала проигры- 
вания фонемы, объясняется тем, что интервалы, на которых считается эта амплитуда 
(50 мс), включает в себя часть периода проигрывания фонемы. Область графика после 
периода проигрывания фонемы соответствует эхо, которое является следствием отражения 


звуковых волн. Значение 6’ между точкой разбиения (сплошная линия) и началом 
проигрывания фонемы (точка, отмеченная стрелкой) является искомым смещением. 


График 


период 
проигрывания 
фонемы 


Эхо 


нь ый 


= 
© 
5 
= 
Ез 
5 
7 
1 
ЕЗ 
СС 


ы 
ы 
ы 
Я 
8- 
8 
ы 
=- 


| 


т 
} 
| 
+ 
| - 
| 
} 
} 
| 


5 Время, мс. 


Рисунок4 — График изменения амплитуды 
Для вычисления значения 6’ для произвольной частоты /74 на отрезке Л!’ рас- 
смотрим следующие интервалы 


АН = 1+6, +6], дЕ(0,т),1=1,5 
Определим функцию атр,(й‘4,0), которая для каждого д =(0,т) будет равна 
амплитуде частоты 4 на отрезке ЛЕ, согласно формуле (2.1) 
атр, (Лад) = атр 5(1), де (0,т), 1 = 1,5 


Аг „4 
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Рассмотрим некоторый параметр а е (0,1) , значение которого будет являться па- 


раметром алгоритма. Определим наименьшее значение 6’, для которого будет выпол- 
нено неравенство 


атр,( 94,5") > а * тах атр, (19,5) 


Значение 6” будет являться искомым смещением. Ниже приведена общая форму- 
ла для расчета функции 6, (№4) 


5,(24)= шш(б) ‚где &(6) = атр (4,6) -@а * тах атр,( 14,6) 
6'Е(0,1) (3.3) 


2(6)>0,6е(0,1) 


$ * 
Отметим, что согласно вышеуказанной формуле, 6, (/74) зависит только от частоты 
а, аудиосигнала 5(Г) и параметров алгоритма. Таким образом, ограничения, наложенные 


на функцию 9, (174) , выполняются. 


4 Проверка корректности формул 


Ряд введенных функций и множеств в данной работе были определены «в рекур- 
рентном стиле» с использованием понятий, которые в свою очередь зависят от этих же 


функций и множеств. Например, для введения множества выделенных фонем 5, исполь- 
зовались функции амплитуды фонемы а,(Г), текущего фрагмента фонемы с (Г) и 


текущего времени распознавания ТС (Г), которые в свою очередь были определены с 


использованием множества выделенных фонем. 
В связи с вышесказанным, необходимо проверить корректность введенных опреде- 


лений. проверки корректности покажем, что зная исходные данные на отрезке АУ ь И 
> 


всех предыдущих, можно вычислить все функции и множества для этого отрезка, а также 
получить исходные данные на отрезке Д!"'. 


В качестве исходных данных на отрезке А!’ будем рассматривать функцию текущего 
времени распознавания фонемы ТУ(Г). В силу того, что при #=1 эта функция 
ТС (Г)=0 известна, указанная проверка будет доказывать корректность введенных опре- 
делений. Последовательно покажем, что зная исходные данные на отрезке ЛЕ и преды- 
дущих, можно определить функцию текущего фрагмента фонемы (Г), функцию 
смещения фонемы 6,(/), функцию амплитуды фонемы а,(Х), множества выде-ленных 


фонем 5; и исходные данные на отрезке АЕ 


‚ т.е. функцию текущего времени распо- 
знавания фонемы ТС (Х). 
Согласно (2.7), (3.2) текущий фрагмент фонемы (Г) и функция смещения 


6,(Х) уже зависят от исходных данных. 
Лес (Г) = Лес ТА), 1 =15 
6, (Л) = 5.(Т,Т.,), = 1,5 
Последовательно используя равенства (2.9), (2.7), (3.2) получаем, что функция 


амплитуды фонемы на отрезке Д! зависит только от текущего времени распознавания 
фонемы к моменту #"". 
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р , Ее 4 
а(Г)=а’(Г, ва, 6.) = а’ (ТА), 1 =1, ь 

Согласно (2.3) и (4.1) получаем равенство, которое доказывает справедливость 
определения множества выделенных фонем 


5; о. (а, (ПОЕТ т 
2) 

Таким образом, на отрезке Д! доказана зависимость всех функций и множеств 
исключительно от функции текущего времени распознавания фонемы к началу этого 
отрезка. Покажем теперь, что зная эту функцию к началу отрезка Д!, можно получить 
значения аналогичной функции к концу этого отрезка. 

Согласно (2.5), (4.2) получаем равенство, которое доказывает это утверждение. 

теретеле,в) тен =, - 
.3) 
Таким образом, показана зависимость исходных данных на отрезке Д!' от исход- 
ных данных на отрезке Ди предыдущих. Следовательно, доказана корректность опреде- 
ления всех функций и множеств, рассмотренных в данной работе. 


5 Алгоритм распознавания 


Процесс обработки аудиосигнала (распознавания) начинается с прослушивания 
аудиоданных длительностью 2т. Такой отрезок необходим для работы алгоритма 
определения начала фонемы. Далее аудиосигнал будем обрабатывать через каждый 
интервал длительностью т. На рис. 5 текущий интервал отмечен более жирной чертой, 
менее жирной чертой отмечены интервалы, которые прослушаны к этому моменту 
времени. 


ЕН НН яв ыы ыы ты 


Рисунок>5 — Временные интервалы распознавания 
В качестве исходных данных на каждом отрезке Л!’ будем рассматривать значения 
функции ТО (Г) текущего времени распознавания фонемы к началу этого отрезка. Отме- 
тим, что на первом отрезке исходные данные, Тх (/) =0, ГЕК, известны. 


Обработка аудиосигнала на каждом отрезке ЛР будет заключаться в определении 
текущего времени распознавания Т° (Г) каждой фонемы ГЕ ЕЁ кконцу этого отрезка. 


Рассмотрим процесс обработки аудиосигнала на произвольном отрезке ДЕ’. Как 
отмечалось, к началу этого отрезка нам известна функция ТС, (Х). 


Согласно определению для вычисления текущего времени распознавания 7. (У) 
фонемы / ЕЁ кконцу отрезка необходимо проделать ряд следующих действий. 


1. Определить текущий фрагмент /2((/) каждой фонемы ГЕК. 
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2. Вычислить значение функции смещения д, (1) для каждой ГЕК. 
3. Вычислить значение функции амплитуды фонемы а, (Г) для каждой ГеЕР. 
4. Определить выделенные фонемы 5, . 


Ниже представлено детальное описание каждого из вышеуказанных шагов. 


Определение текущего фрагмента. 


Текущий фрагмент /2((/) фонемы ГЕР на отрезке А!“ будем определять сог- 
ласно формуле (2.6). Для этого вычислим значение следующей функции. 


т (Г) = тпо4 (Т.Г) 


Далее определим наименьшее значение /[ е М ‚, для которого значение функции 
1 
ея р 
(= У Л 
1 


будет не меньше значения функции ГС (Х). Фрагмент /[П фонемы Х под номе- 

ром / будем считать текущим фрагментом на отрезке Д!”. 
Ле) = ЛИ 

Определение функции смещения. 

Определив текущий фрагмент фонемы /, переходим к вычислению значения функ- 
ции смещения д, (Г). 

Согласно формуле (3.1), если ТС (Х) > 0, в качестве значения функции 9,(/) бе- 
рется значение д, (Г) на предыдущем шаге. 

В том случае, если амплитуда частоты текущего фрагмента фонемы /, вычисленная 


согласно формуле (2.1), на отрезках ДЕ’ и ДЁ“*" не превосходит значение параметра а 


считаем 5, (Г) =0. 


В противном случае б,(/) будет равно значению функции 6, (14) для частоты 


ши 2 


‘а текущего фрагмента фонемы Х. 


Для вычисления 6, ( /74) методом стандартных отрезков рассмотрим интервалы 


ДЕ = [+ 1 *т/10,Ё' + 1 *т/10], } = 0,9 
и вычислим амплитуду аудиосигнала, соответствующую частоте /4 текущего 
фрагмента 2. (Г) фонемы Г, на каждом из этих интервалов. 


атр, = атр 5(0,/=0,9 


У - 
Далее вычислим максимальное значение атр, амплитуды на этих интервалах И 
.* 
определим наименьшее значение ] ‚› ДЛЯ которого будет выполнено неравенство 


атр . > а*тах атр 5(1) 
' 22059 лира! 


Значение б = /*г/10 будет являться искомым смещением. 
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Определение амплитуды фонемы 


Определив текущий фрагмент /755(Г) и значение функции смещения 6,(/) для 
фонемы /, переходим к вычислению значения функции амплитуды фонемы а, (ХТ). 
Согласно формуле (2.8) а,(Г) будет равна амплитуде аудиосигнала, соответствующей 
частоте текущего фрагмента этой фонемы, вычисленной на отрезке со смещением 


ДЕ (Г) = [е ко: (Г), +9, (Г)], используя формулу (2.1). 


а (Г)=  атр  5(1) 
её (ПА (Г) 


Определение множества выделенных фонем. 


Вычислив значение функции амплитуды Як (Т) каждой фонемы ТЕХ. переходим к 
определению множеств выделенных фонем 5». Для этого, используя множества Ёл, Мк, 
проверяем условия (2.2) определения выделенной фонемы для каждой ТЕЁ. Втом случае, 


если указанные условия удовлетворяются, считаем ее: 


Множество 5» после работы алгоритмов корректировки смещения влево и кор- 
ректировки смещения направо будем считать итоговым множеством выделенных фонем. 


(@ 
Используя это множество, определим текущее время распознавания 1» (Л) каждой фоне- 
А 
мы Л ЕР кконцу отрезка А’. 

Получив множество выделенных фонем, переходим к определению текущего време- 
ни распознавания фонемы ТС (Х). Согласно формуле (2.4) текущее время распознава-ния 
ТС (Г) фонемы Г ЕР будет равно значению ТС, (Г) на предыдущем отрезке плюс длина 
отрезка разбиения т в том случае, если Г является выделенной фонемой, т.е. ДЕЗ, и 
нулю, в противном случае. 

Определив текущее время распознавания ТГ (Г) каждой фонемы ГЕЁ к концу 
отрезка Д!’ , переходим поиску распознанных фонем. 

Проверяем условия (2.10) определения распознанной фонемы. В том случае, если 
для некоторой фонемы Г ЕЁ условия удовлетворяются, считаем фонему / распознан- 
ной на интервале [1^-| /|,{\]. 

Будем обозначать ДЕ“? = [19,179] интервалы, на которых были распознаны фо- 


немы. Значение г: будем определять согласно очередности. Т.е. при определении пер-вого 


отрезка, на котором распознана некоторая фонема, значение {1 будет равно единице, 


К() 


второго — двум и так далее. Отрезки ДЕ“ будем называть распознанными. 


После определения второго и последующих интервалов, на которых некоторая фоне- 


= [ЕО 1] от конца преды- 


ма будет распознанной, будем рассматривать отрезок Л! 
дущего распознанного отрезка до начала текущего. Данный отрезок проверяется на удов- 
летворение условий (2.11) определения распознанного пробела. В том случае, если условия 


удовлетворяются, пробел считается распознанным на отрезке Д!°®. 


6 Калибровка 
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Как правило, частота, воспроизводимая одним роботом, отличается от частоты, 
которую воспринимает другой робот. На рис. 6 представлен график соответствия этих 
частот в проведенных экспериментах. 


График 


Значение, ед. 
3400 -0-20-00 00 100 200 300 0000 


[и 
АА ЕЕ АЕТ ПЕР ЛЕ ПЕРЕТА ДЕ ЛЕЕЕТ 
[= 


540 э5Б0 
Частота,Гц 


Рисунокб — Изменение частоты в «передающем тракте» 


В алгоритме для более качественного распознавания ставится задача получения 
соответствия между этими частотами. Определим функцию связи частот 


Лаг* = К(Л‘4) 


Данная функция будет, принимая значение частоты, которую проигрывает один робот, 
выдавать значение частоты, которую слышит другой. Эта функция определяется опытным 
путем и используется в алгоритме распознавания. 


7 Анализ работы алгоритма 


Для реализации алгоритма разработана программная среда. При создании програм- 
мной среды использовались методы, описанные в [4]. Программная среда позволяет осу- 
ществлять и анализировать работу рассматриваемого алгоритма для системы, состоящей 
из двух роботов. 

Для тестирования системы в качестве алфавита рассмотрено множество букв рус- 
ского алфавита. Каждой букве поставлено в соответствие множество, состоящее из одной 
фонемы, которая в свою очередь состоит из двух фрагментов, одинаковой длительности и 
амплитуды. 

Таким образом, каждой букве алфавита соответствует двухчастотный сигнал. Час- 
тоты фрагментов, которые используются для каждой буквы, а также амплитуда и дли- 
тельность этих фрагментов, приведены в таблице табл. 1. Все параметры отобраны в 
результате нескольких серий тестов и в этом смысле являются наилучшими. 

Эти параметры вместе с выбором языка роботов подобраны экспериментальным 
путем и отвечали наилучшему качеству распознавания среди всех рассмотренных здесь 
параметров. 

В качестве входного аудиосигнала в программе используется 8-битный моносиг- 
нал с частотой дискретизации 12800 Гц. Выбор этих параметров соответствует техни- 
ческим характеристикам используемых в системе динамиков, микрофонов и аналого- 
цифровых преобразователей (АЦП). 

Анализ работы алгоритма заключался в проведении нескольких тестов. Тестирование 
проводилось на двух компьютерах, один из которых («проигрывающий») использовалась 
для проигрывания звуковых фрагментов, а другой («распознающий») — для выделения из 
пришедшего потока аудиоданных звуков, соответствующих буквам алфавита. 
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Таблица 1 — Соответствие между буквами алфавита и параметрами сигнала 
Частота 1-го фрагмента, Частота 2-го лительность, 
АДА ты фрагмента,Гц ь Месек 

а 100 400 2000 150 
6 100 450 2050 150 
В 100 500 2100 150 
г 100 550 2150 150 
д 100 600 2200 150 
е 100 650 2250 150 
ж 100 700 2300 150 
Е 100 750 2350 150 
и 100 800 2400 150 
й 100 850 2450 150 
к 100 900 2500 150 
л 100 950 2550 150 
м 100 1000 2600 150 
н 100 1050 2650 150 
о 100 1100 2700 150 
п 100 1150 2750 150 
р 100 1200 2800 150 
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Продолжение табл. 1 


с 100 1250 2850 150 
т 100 1300 2900 150 
у 100 1350 2950 150 
ф 100 1400 3000 150 
х 100 1450 3050 150 
ц 100 1500 3100 150 
Ч 100 1550 3150 150 
ш 100 1600 3200 150 
щ 100 1650 3250 150 
ъ 100 1700 3300 150 
ы 100 [750 3350 150 
ь 100 1800 3400 150 
Е] 100 1850 3450 150 
ю 100 1900 3500 150 
я 100 1950 3550 150 


Параметры алгоритма: 


—т=50 
а =32 
— а =0.9 
—а=0.7 


Тест №1. На разных расстояниях от микрофона «распознающей» машины дина- 
миком «проигрывающей» машины один раз проигрывался звуковой сигнал, соответствую- 
щий фразе «абвгдежзийклмнопрстуфхцяшщъыьэюя». После чего результат распознавания 
сравнивался с исходной фразой. Результаты эксперимента представлены в таблице табл. 2 


Таблица 2 — Результаты эксперимента №1 


«Штучний 1нтелект» 42012 


Расстояние, м. Распознанная фраза 

0.5 абвгдежзийклмнопрстуфхцяишщьыьэюя 

1 абвгдежзийклмнопрстуфхцяишщьыьэюя 

1.5 абвгдежзийклмнопрстуфхичицъыьэюя 

2 абвгдежзийклмнопрстуфхичшщъыьэюя 

2.5 абвгдезийклмнопстуфхцчшщьыьэюя 

3 абвгдезийкмнопрстфхцчшщьъыьэюя 

3.5 абвгдезийклмнопрстуфхцчшьъыьэюя 

4 абвгдежзийклнопрстуфхцчшъыьэюя 

4.5 абвгдезийклмнопрстуфхцчшъыьэюя 

5 абвгдезийлмнопрстуфхяшьъыьэюя 

6 абвгдезиймнопрстуфхчшьыьэюя 

7 абвгдезийкнопрстуфхяшьъыьэюя 

8 абвгдезийклнирстуфхчшььэюя 

9 абвгдезийклнисуфхшщььэя 

10 абвгдезийклнисуфхищьэя 

На рис. 7 изображен график зависимости процента распознавания от расстояния 

между коммуницирующими машинами. 
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Рисунок7 — Процент распознавания как функция расстояния. Тест 1 


Тест №2. На расстоянии двух метров от микрофона «распознающей» машины дина- 
миком «проигрывающей» машины десять раз проигрывался звуковой сигнал, соот- 
ветствующий фразе «абвгдежзийклмнопрстуфхцяшщьыьэюя». На рис. 8 изображен гра- 
фик зависимости процента удачного распознавания от номера эксперимента. 


Процент распознавания, % 
ВО Е о ВВ ЗВ ОО ГОУ С 


35 


«} 


10 


$ 


Кол-во букв 
0 


Рисунок8 — Тест повторного проигрывания-распознавания. Тест 2 


Тест №3. На расстоянии двух метров от микрофона «распознающей» машины 
динамиком «проигрывающей» машины проигрывался звуковой сигнал, соответствующий 
разному количеству букв «а». График зависимости процента удачного распознавания от 
количества букв «а» представлен на рис. 9. 


Рисунок9 — Тест повторного проигрывания-распознавания. Тест 3 


Укажем здесь, что данные тесты выполнялись неоднократно, в разных состояниях 
внешней среды (температура, соответствующее давление воздуха, небольшая зашум- 
ленность). Во всех экспериментах результаты получались идентичными приведенным. 


Как видно из тестов на расстоянии до двух метров распознавание четкое (надежное), а 
далее возникают небольшие отклонения. 


8 Схема использования языка 
с подкрепляющим диалогом 


Рассмотрим следующий модельный пример применения системы тональной акустиче- 
ской коммуникации. На площадке квадратной формы, разбитой на 64 ячейки как шахматная 
доска, находятся два робота. Каждая ячейка окрашена некоторым цветом (рис. 10). 

Каждый робот может передвигаться по ячейкам площадки и способен определить 
цвет ячейки, на которой он находится в данный момент. Роботы общаются между собой, 
используя тональный акустический язык. 
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Передвигаясь по ячейкам площадки, роботы сообщают друг другу информацию о цве- 
те ячеек. При этом они используют следующую терминологию. Оказавшись на новой, не- 
исследованной ячейке робот говорит фразу «Нахожусь в ячейке с координатами Х У цвет 
такой-то». При коммуникации существенно используется словарь возможных слов, опи- 
сывающих координаты (целые числа) и цвета. В случае если второй робот «понял» 
первого, он ничего не отвечает. В обратном случае второй робот произносит фразу «не 
понял повтори» и первый должен повторить сказанную фразу. 


Рисунок10 — Площадка для исследования роботами 


Рассмотрим результаты эксперимента в тех случаях, когда роботы находятся в ячейках 
на расстояниях 2 и 4 метра. Робот, находясь в ячейке с координатами (2, 1), говорит следу- 
ющую фразу: «нахожусь в ячейке два один цвет желтый». График и спектрограмма исход- 
ного сигнала, соответствующего данной фразе, изображены на рис. 11. На графике изобра- 
жены чистые гармоники с очень большой периодичностью. 

Второй робот, находясь на расстоянии два метра, слушает этот сигнал. На рис. 12 изо- 
бражен аудиосигнал, который принял второй робот. В результате эксперимента второй 
робот распознал фразу полностью. 

Далее роботы находятся на расстоянии четыре метра, и первый робот произносит ту 
же самую фразу. Второй робот слушает первого и получает аудиосигнал, который изобра- 
жен на рис. 13. Фраза, которую распознал второй робот следующая «нахожусь в ячейке 
два дин цвет желты». Фраза распознана не полностью, правильная фраза по-прежнему 
«нахожусь в ячейке два один цвет желтый», и второй робот просит первого повторить, 
произнося фразу «не понял повтори». Первый робот вновь произносит фразу, и теперь вто- 
рой робот распознает её полностью. 


Рисунок11 — Исходный аудиосигнал 


Рисунок12 — Аудиосигнал, полученный с расстояния 2 метра 
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Рисунок13 — Аудиосигнал, полученный с расстояния 4 метра 


Рассмотренный практический пример реализации диалога двух роботов на базе 
тонального акустического языка и диалог с подтверждением повышают надежность пе- 
редачи и распознавания информации. 


Заключение 


В работе выполнено построение модели акустического тонального языка роботов 
и разработан алгоритм выделения звуков, соответствующих фонемам этого языка. Данная 
система позволяет осуществлять коммуникацию роботов на основе акустических сиг- 
налов. В основе метода распознавания лежит программная реализация спектрального ана- 
лиза аудиосигнала. 

Выполнена реализация программной среды моделирования. Программная среда 
позволяет определять и анализировать параметры, характеризующие аудиосигнал. Эти 
параметры в дальнейшем будут использоваться для доработки данного алгоритма с целью 
достижения лучшего качества распознавания. 

Моделирование показало работоспособность созданной схемы управления. Ее отра- 
ботка будет продолжена на макетах подвижных роботов. 

Отметим, что передача акустических сигналов во многих отношениях, таких как на- 
дежность, скорость, уступает передаче данных по радиоканалу. Однако данная система 
может использоваться в тех случаях, где неприменимы радиосигналы, например, в усло- 
виях значительных радиопомех. Также она может быть интересна при использовании в 
таком окружении, когда коммуникация роботов должна быть наглядной. 

В дальнейшем планируется создать версии акустического языка, в которых каждый 
символ будет кодироваться не одно-, а двух- и/или трехчастотным сигналом. Цель — созда- 
ние таких языков, которые будут более устойчивы к помехам. 

Также планируется ввести некоторый понятийный словарь (тезаурус), которым 
будут пользоваться роботы. Для этого словаря будут созданы правила составления пред- 
ложений, каждое из которых будет уже иметь какой-то смысл. Алгоритмы распо- 
знавания будут дополнены анализом этих предложений. Будет создан инструмент для 
пополнения данного словаря. Таким образом, на основе такого языка можно будет 
осуществить смысловой диалог роботов. 
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КЕЗОМЕ 


Г.Е. РауоузКу, А..Ли. КиКоу 
Атийс@ Топе Гапгиазе 


юг Асоизйс Соттитсайоп оГ Короб 

Тре \\ок 4еа1$ зу сгеаноп оЁ зует оЁасои$Ис соттитшсаноп оЁгобо5 Юг геа|Нтайоп 
ог пет сопуегзайоп ш Ше изиа! ежегпа]| (ат) епупоптеп! оп Ше фуртса| асоизис Недиепсе$ 
регсеуе4а Бу Ше Битап. СепегаШу зреаКше, 1ю\’-Яедиепсу Папопасе оё гобо{$ \оп” Бе 
иесИу сЛеаг №0 Ше регзоп, Баё аз Юг Ше регзоп # 1$ зпире тю ргераге Фе сотезропате 
гапз[аюг. Тиз, оНеге асоизис сотитишсайоп сап Бесоше Ше сопуешепЁ теап$ оЁ 
аадтопа! сопёго| оРБевахтог оРе гобо{5 соех15 пе у Фе питап Бет2$ ш ип опт $ос1ейу. 

ш Ше \хогК, сотиташсаНоп оР гобо5 15 Базе оп зпире тгасеиге оё опе- ап4а 1ю\- 
Педаепсу $1юпа|$ а{ 4оез тефо@$ оЁ Фе 5ресйга| апа1уз$15 а|по5Ё 14еа| Юг е забзедиете 
а1еоги$ о гесогпйюпт. Оп Фе Ба$15 оЁ засВ 51епа[5, Базе 1апопасе ог тобо{5 15$ ипаег 
сопзёгасйоп. ТВе |апоцазе сап шса4е апу питбег оЁ Фе @ететагу зутбо[5 геа|2еа Бу Ше 
топо- ог ро[уйеадиепсу оРагайсла| рвопетез. ше у’огК, е Юга! тоде| ое 1апопасе 15 
ещеге4, 1е ргоэтат епутоптепЕ Юг у15иаПтайоп ап Фе апа[у$15 оЁ мо оЁ Ше сопзиасеа 
а1еоги ит 15 геа|7е4. 

Ехрегитеп $ оп е Ба$15 оЁ1е сгеже4 сотаршег ап Ваг4\уаге то4е!$ Юг е апа1у$15 оЁ 
орега у оЁ №е сопзбласе4 а1еогИил$ аге таде. Тне ЙгзЕ ргоюбуре ог дезсгфе4 зуу%ет Уаз 
стеже4 ш 2007-2008. ини Ше забзедаепе ите, ехрегипеп5 оп сгеайоп оЁ 5еуега| уатои$ 
теаПтаноп ап4 1апецазе \уогкше о \еге сагле4 отё. ТВе ехрегитепё$ зпо\ме4 йе зи йслете 
еЁ йслепсу оРТе сгеже4 асоизйса| зузет. 


Статья поступила в редакцию 16.07.2012 
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